翻开尘封的历史:AI帮忙重整欧洲数十亿页档案
海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月
从战争到婚礼,欧洲的历史保存在整个欧洲大陆数十亿份档案中。尽管许多档案馆试图公开他们的文件,但从中寻找信息仍然是一件非常耗时的事情。简单的页面扫描不能提供研究人员需要的的关键信息,比如日期、姓名、地点,必须转化为相应的可检索数据才有实际的用途。
谷歌公司曾经运营一个将图书馆藏书数字化的项目,但那仅仅是将这些书籍一页一页的拍成照片,阅读和辨识的工作仍然需要人类来进行。而在欧洲的许多档案馆,累计了数百年来不断产生的各种档案,包括人口登记、法庭判决、婚姻证明、银行记录等。荷兰阿姆斯特丹市档案馆保存了大量档案,光是公证人的记录,纸上就有3.5公里,约等于11800页的A4纸。这些藏品总长约50公里,相当于17万张A4纸。这些记录大部分都是手工记录,研读并且转换这些文件中的信息可能需要几十年的工作时间和天量资金。
训练AI时,使用者手动将50到100页现有抄本输入到系统的模型中,该模型使用机器学习来比较它已知的手写模式和用户想要转录的文档。模型自动逐行转录。为了让它顺利工作,新文档的笔迹必须与模型以前看到的相同或相似。使用者可以训练自己的模型,也可以选择预先存在的模型。一个可用的模型可以识别出英国哲学家杰里米·边沁(Jeremy Bentham)的笔迹风格,另一个则是17世纪意大利秘书的笔迹风格。
在Transkribus完成了它的工作之后,使用者通常只需要略微校对来纠正一些小错误。虽然这看起来不算很完善,但是它依然可以节省档案工作者、历史学家和学者数百甚至数千个小时坐在电脑前手工“翻译”历史文献的时间。
Ricordi出版社的总经理Giulio Ricordi写于1889年的一封信。
训练这种专用的AI需要解决两个问题:一是不同的语言。虽然欧洲的大多数文字都使用罗马字母,但是不同的语种在不同的历史时期差别是很大的,用现有的翻译字库未必能够直接识别;二是不同的写作者。这些档案绝大多数都是手工书写,每个人的笔迹都是不同的,就像现代人一样,很多人写字的时候相当“随意”,AI需要足够的样本来识别那些特殊的近乎“涂鸦”的字母。
点击下方知社人才广场,查看最新学术招聘
扩展阅读
本文系网易新闻·网易号“各有态度”特色内容
媒体转载联系授权请看下方